Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) análisis estadístico (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: análisis estadístico


Is in goldstandard

1
paper corpusSignosTxtLongLines124 - : Si bien el LSA empieza con un análisis estadístico de las palabras en uso, termina con algo bastante diferente y mucho más poderoso, con una "verdadera representación semántica, un espacio que captura las relaciones semánticas esenciales" ([68]Kintsch, 2002: 5 ). Por ejemplo, se requieren a menudo palabras que son de significado similar en contextos diferentes. Así, las formas singulares y plurales de nombres (que son palabras diferentes para el LSA) normalmente no se emplean al mismo tiempo. Si alguien habla sobre "mountain" no usará cercanamente "mountains." En el espacio de LSA, sin embargo, la correlación entre "la montaña" y "las montañas" es bastante alto (0,84 en este caso), porque aunque las dos palabras no aparecen a menudo juntas, las dos pueden ser usadas en contextos similares. De esta manera LSA infiere que las dos tienen un significado similar ([69]Kintsch, 2002).

2
paper corpusSignosTxtLongLines140 - : El presente trabajo pretende ser un aporte en dicha dirección. Este estudio es parte de una investigación mayor, en la que, siguiendo la metodología de la lingüística de corpus, se aplicó un análisis estadístico multivariado ([28]Biber, 1986, [29]1988) sobre 65 rasgos lingüísticos (ver anexo 1) en tres corpora correspondientes a tres registros: Técnico-Científico (CTC ), Literario (CLL) y Entrevista Oral (CEO), pertenecientes al corpus PUCV-2003. Producto de este análisis cuantitativo, se configuraron 5 dimensiones, denominadas Foco Contextual e Interactivo, Foco Narrativo, Foco Compromiso, Foco Modalizador y Foco Informativo ([30]Parodi, 2004). Estas dimensiones deben ser entendidas como interpretaciones funcionales de patrones de co-ocurrencia de rasgos lingüísticos. Posteriormente, se determinó estadísticamente un puntaje para cada registro (CTC, CLL y CEO) en relación con cada dimensión. Así, sobre la base del puntaje que cada uno de ellos alcanzó con respecto a cada dimensión, se co

3
paper corpusSignosTxtLongLines153 - : Finalmente, se investigó la variabilidad de los verbos en los distintos registros. Para esto se llevó a cabo un análisis estadístico del clásico coeficiente entre tipos y casos verbales ( verbal type/token ratio) pero dado que, tal como ha demostrado el estudio de Lebart, Salem y Bécue ([76]2000), dicha tasa de variabilidad depende en un alto grado del número total de palabras, se complementó ese cálculo con una estimación del porcentaje de los verbos por el número total de palabras, es decir, cuánto (porcentualmente hablando) de un registro corresponde a unidades verbales .

4
paper corpusSignosTxtLongLines378 - : Un análisis estadístico no debe combinar, inicialmente, datos que procedan de grupos objetivamente distintos (Moore, 1998; Field, 2009), ya que los resultados pueden verse alterados. De tal manera y previamente al análisis estadístico, en este estudio se han dividido los datos en dos grupos: unidades fónicas completas y unidades fónicas integradas . Así, esta división ha minimizado las posibles incoherencias en los resultados obtenidos ([32]Gráfico 2).

5
paper corpusSignosTxtLongLines415 - : Si nos fijamos en los resultados (véase Tabla 5) comprobamos que la frecuencia de todas las combinaciones que contienen errores es cero; con lo cual, queda demostrada la eficacia del algoritmo basado en el análisis estadístico: está por encima de la del corrector del procesador .

6
paper corpusSignosTxtLongLines415 - : El análisis estadístico no nos lleva a pensar que la oración contenga falta alguna, pues la frecuencia de ‘que tengamos’ es 515 (por separado, la de ‘que’ es 3295376 y la de ‘tengamos’, 1346 ), la probabilidad del bigrama, 44.36 y el umbral, 11.61. Es otro caso de falso negativo, como (22).

7
paper corpusSignosTxtLongLines415 - : El punto débil de los correctores gramaticales basados en el análisis estadístico de la frecuencia de las palabras del texto es que, como vimos en el apartado 4, solo identifican errores que puedan ser inferidos analizando información procedente de las combinaciones de palabras adyacentes –lo cual nos puede llevar a pensar que hay fallos donde en realidad no los hay (falsos positivos) o a no detectar otros que sí lo son (falsos negativos)–, como bien resume Chen (2009), tras su análisis de varios correctores de inglés:

8
paper corpusSignosTxtLongLines425 - : Para el análisis estadístico de la información se conformaron tres tablas de datos, una para cada nivel de análisis . Dichas tablas presentaron 54 filas (una por cada texto), mientras que las columnas recogieron las distintas categorías de cada dimensión (ver Tablas 3, 4 y 5).

9
paper corpusSignosTxtLongLines448 - : trabajo seguimos las sugerencias e indicaciones de Moreno Fernández (1990), López Morales (1994) y Hernández Campoy y Almeida (2005). El análisis estadístico atendió a dos niveles de observación: a) en términos descriptivos, según las frecuencias absolutas y los porcentajes de frecuencia de cada rectificador y b) en términos interpretativos o inferenciales, con base en la comparación entre las medias o tendencias centrales de los marcadores más frecuentes, esto es, de aquellos con más de 25 ocurrencias . El paquete estadístico al que hemos recurrido para la estadística inferencial es el SPSS (Statistical Package for the Social Sciences), versión 15.0 para Windows, específicamente, la prueba Análisis de varianza ANOVA. En atención a que la distribución de los datos, en algunos casos, pudiera ser anormal, se complementará dicho análisis con su análogo de tipo no paramétrico, esto es, Anova de Kruskal Wallis. En ambos casos, el grado de significación se definirá en el 5%, según el cua

10
paper corpusSignosTxtLongLines521 - : Según nuestras hipótesis, la pendiente para la condición Consistente-Mencionado debería ser positiva y distinta a la de la condición Consistente-No Mencionado, mientras que tal diferencia en pendientes no debería observarse en las otras dos condiciones; esto es, cuando el hablante es inconsistente (ver [88]Figura 5). En concordancia con estas hipótesis, el análisis estadístico muestra que el componente lineal del modelo (esto es la pendiente ), es distinta entre las condiciones Mencionado y No-Mencionado para el hablante Consistente (chi-cuadrado(1) = 19.496, p < 0.0001), pero no para el hablante Inconsistente (chi-cuadrado(1) = 1.033, p = 0.309).

Evaluando al candidato análisis estadístico:


1) palabras: 8 (*)
2) foco: 5 (*)
4) frecuencia: 4 (*)
8) hablante: 3
9) tablas: 3
10) unidades: 3

análisis estadístico
Lengua: spa
Frec: 74
Docs: 40
Nombre propio: / 74 = 0%
Coocurrencias con glosario: 3
Puntaje: 3.796 = (3 + (1+4.75488750216347) / (1+6.22881869049588)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)
análisis estadístico
: Durán Martínez, R. (2000). Análisis estadístico de la presencia de la lengua inglesa en la publicidad comercial española. Aula, 12, 87-101.
: Lebart, L.; Salem, A. & Bécue, M. (2000). Análisis estadístico de textos. Lleida: Editorial Milenio.